多元回归分析(stata)

您所在的位置:网站首页 多元线性回归 检验b1+b2+b3等于1 多元回归分析(stata)

多元回归分析(stata)

2024-07-17 12:55| 来源: 网络整理| 查看: 265

文章目录 导入数据清屏分为定量数据(summarize)定性数据多元回归分析(定量)联合显著性检验显著性调整后 R 2 R^2 R2回归系数表以及它们对应的p值置信区间 多元回归分析(定性)(既有虚拟变量)定性分析(设置虚拟变量)拟合优度标准化回归系数 异方差检验多重共线性存在多重共线性的处理方法逐步回归(用于解决多重共线性的问题)stata实现逐步回归向后逐步回归操作 国赛的例子检验多重共线性的代码方差膨胀因子剔除因子检验异方差稳健标注误标准化回归

导入数据 import excel "D:\my_document\数学建模\清风\清风代码\第7讲.多元回归分析\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.x lsx", sheet("Sheet1") firstrow 清屏

cls clear

分为定量数据(summarize)

summarize 有数字

在这里插入图片描述 obs:样本量 mean:均值 std:标准差 最小最大值

定性数据

tabulate 变量名,gen(A)

在这里插入图片描述 Freq:频数 percent:比率 cum:累计频率

在这里插入图片描述

多元回归分析(定量)

regress y x1 x2 … xk 回归只引入定量

在这里插入图片描述

Model:SSR 回归评分和 Residual:SSE 误差平方和 Total:SST 拟合优度: R 2 R^2 R2=SSR/SST df:自由度

引入调整后 R 2 R^2 R2: 在这里插入图片描述

联合显著性检验

在这里插入图片描述 注释:

1.number of obs:观测值的个数n 2.F(2,843)代表联合显著性检验,15.06为检验值,检验值值为F统计量构造出来,F统计量第一个自由度为2,第二个自由度为 843。 即为这两个自由度: 在这里插入图片描述 其对应的p值为0.00。

看清一个假设一定要知道三个东西: 1.构造出来的统计量为什么统计量,(比如这位F统计量) 2.看统计量对应的p值。 3. H 0 H_0 H0​:联合显著性检验, β 1 = β 2 = ⋯ = β k = 0 \beta_1=\beta_2=\cdots=\beta_k=0 β1​=β2​=⋯=βk​=0, 检验k个自变量前面的回归系数是否都为0,(看p值是否大于0.05), 如果p值大于0.05,则下结论,则我们回归不能拒绝原假设,则认为回归无多大的意义。(即回归自变量系数都为0),即模型设定不合理。

联合显著性通过,即p值是否小于等于0.05,我们拒绝原假设,我们认为回归模型有一定意义。

在这里插入图片描述

显著性

显著性水平是一个事先指定的概率阈值,通常表示为α。常见的显著性水平包括0.05(5%)和0.01(1%),这意味着 只有当样本数据产生的结果具有非常低的概率(低于0.05或0.01)时,才会认为结果是显著的。如果计算出的P值小于显著性水平α,则认为结果是显著的,拒绝原假设**;如果P值大于α,则认为结果是不显著的,没有足够的证据来拒绝原假设。

调整后 R 2 R^2 R2

R 2 R^2 R2和调整后 R 2 R^2 R2 在论文中我们需要加入调整后 R 2 R^2 R2而不是 R 2 R^2 R2, 加入这句话:在这里插入图片描述 Root MSE:均方误差。

回归系数表以及它们对应的p值

在这里插入图片描述 cons:第一列代表常数项, β 0 , β 1 , ⋯ \beta_0,\beta_1,\cdots β0​,β1​,⋯ β 0 ^ \hat{\beta_0} β0​^​为26255.38, β 1 ^ \hat{\beta_1} β1​^​为2410.303(代表商品毛重的系数)。 β 1 ^ x + β 2 ^ x + β 3 ^ x + ⋯ \hat{\beta_1}x+\hat{\beta_2}x+\hat{\beta_3}x+\cdots β1​^​x+β2​^​x+β3​^​x+⋯

std.err:第二列代表回归系数对应的标准误差,(标准误用于计算t值)。 − 35 6 ≈ − 5 \frac{-35}{6}\approx-5 6−35​≈−5

t检验统计量即为回归误除以标准

P值:t检验对应的p值 检验 β 1 \beta_1 β1​是否等于0, 因为商品毛重p值大于0.05,所以不用分析它,因为它不显著, wom只分析回归中显著的量。

置信区间

在这里插入图片描述 95%代表有百分之九十五系数落在这个区间内。

cons第一列是点估计,上图为区间估计。 只有关注第一列和p值。

多元回归分析(定性)(既有虚拟变量) 定性分析(设置虚拟变量)

在这里插入图片描述 代码:

tabulate 配方,gen(A) tabulate 奶源产地 ,gen(B) tabulate 国产或进口 ,gen(C) tabulate 适用年龄岁 ,gen(D) tabulate 包装单位 ,gen(E) tabulate 分类 ,gen(F) tabulate 段位 ,gen(G)

输出结果为: 在这里插入图片描述 表示:G4被忽略了,因为完全多重共线性

为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。

在这里插入图片描述

在这里插入图片描述 在百分之九十的置信水平下,有两个自变量对应回归系数是显著的。 (评价量为因变量)。 第一个是团购价元,-29.77274代表在其他条件不变的情况下,团购价格每增加一元,评价量平均减小==-29.77274==。

在这里插入图片描述 F1 在这里插入图片描述 在其他条件不变的情况下,分类为牛奶粉比分类为羊奶粉的评价量高出14894.55。

在这里插入图片描述 括号里面为t检验值 *** p



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3